Researchers produce thousands of scholarly documents containing valuable technical knowledge. The community faces the laborious task of reading these documents to identify, extract, and synthesize information. To automate information gathering, document-level question answering (QA) offers a flexible framework where human-posed questions can be adapted to extract diverse knowledge. Finetuning QA systems requires access to labeled data (tuples of context, question and answer). However, data curation for document QA is uniquely challenging because the context (i.e. answer evidence passage) needs to be retrieved from potentially long, ill-formatted documents. Existing QA datasets sidestep this challenge by providing short, well-defined contexts that are unrealistic in real-world applications. We present a three-stage document QA approach: (1) text extraction from PDF; (2) evidence retrieval from extracted texts to form well-posed contexts; (3) QA to extract knowledge from contexts to return high-quality answers -- extractive, abstractive, or Boolean. Using QASPER for evaluation, our detect-retrieve-comprehend (DRC) system achieves a +7.19 improvement in Answer-F1 over existing baselines while delivering superior context selection. Our results demonstrate that DRC holds tremendous promise as a flexible framework for practical scientific document QA.
translated by 谷歌翻译
Score based approaches to sampling have shown much success as a generative algorithm to produce new samples from a target density given a pool of initial samples. In this work, we consider if we have no initial samples from the target density, but rather $0^{th}$ and $1^{st}$ order oracle access to the log likelihood. Such problems may arise in Bayesian posterior sampling, or in approximate minimization of non-convex functions. Using this knowledge alone, we propose a Monte Carlo method to estimate the score empirically as a particular expectation of a random variable. Using this estimator, we can then run a discrete version of the backward flow SDE to produce samples from the target density. This approach has the benefit of not relying on a pool of initial samples from the target density, and it does not rely on a neural network or other black box model to estimate the score.
translated by 谷歌翻译
我们提出了GRASP提案网络(GP-NET),这是一种卷积神经网络模型,可以为移动操纵器生成6-DOF GRASP。为了训练GP-NET,我们合成生成一个包含深度图像和地面真相掌握信息的数据集,以供超过1400个对象。在现实世界实验中,我们使用egad!掌握基准测试,以评估两种常用算法的GP-NET,即体积抓地力网络(VGN)和在PAL TIAGO移动操纵器上进行的GRASP抓取网络(VGN)和GRASP姿势检测包(GPD)。GP-NET的掌握率为82.2%,而VGN为57.8%,GPD的成功率为63.3%。与机器人握把中最新的方法相反,GP-NET可以在不限制工作空间的情况下使用移动操纵器抓住对象,用于抓住对象,需要桌子进行分割或需要高端GPU。为了鼓励使用GP-NET,我们在https://aucoroboticsmu.github.io/gp-net/上提供ROS包以及我们的代码和预培训模型。
translated by 谷歌翻译
在本文中,我们将预处理技术应用于具有不同长度的多通道时间序列数据,我们称之为对齐问题,用于下游机器学习。多种原因可能发生多种渠道时间序列数据的未对准,原因有多种原因,例如丢失的数据,变化的采样率或不一致的收集时间。我们考虑从MIT SuperCloud高性能计算(HPC)中心收集的多渠道时间序列数据,其中不同的工作开始时间和HPC作业的运行时间不同,导致数据不对准。这种未对准使得为计算工作负载分类等任务构建AI/ML方法具有挑战性。在先前使用MIT SuperCloud数据集的监督分类工作的基础上,我们通过三种宽阔的低间接空间方法解决了对齐问题:从全职系列中抽样固定子集,在全职系列上执行摘要统计信息,并对系数进行取样。从映射到频域的时间序列。我们最佳性能模型的分类精度大于95%,以先前的方法对MIT SuperCloud数据集的多通道时间序列分类的表现优于5%。这些结果表明,我们的低间接费用方法与标准机器学习技术结合使用,能够达到高水平的分类准确性,并作为解决对齐问题(例如内核方法)的未来方法的基准。
translated by 谷歌翻译
对象检测是自动驾驶中的一个全面研究的问题。但是,在鱼眼相机的情况下,它的探索相对较少。强烈的径向失真破坏了卷积神经网络的翻译不变性电感偏置。因此,我们提出了自动驾驶的木观鱼眼检测挑战,这是CVPR 2022年全向计算机视觉(OMNICV)的一部分。这是针对鱼眼相机对象检测的首批比赛之一。我们鼓励参与者设计在没有纠正的情况下对鱼眼图像的本地工作的模型。我们使用Codalab根据公开可用的Fisheye数据集主持竞争。在本文中,我们提供了有关竞争的详细分析,该分析吸引了120个全球团队的参与和1492份提交的参与。我们简要讨论获胜方法的细节,并分析其定性和定量结果。
translated by 谷歌翻译
高斯流程(GPS)实际应用的主要挑战是选择适当的协方差函数。 GPS的移动平均值或过程卷积的构建可以提供一些额外的灵活性,但仍需要选择合适的平滑核,这是非平凡的。以前的方法通过在平滑内核上使用GP先验,并通过扩展协方差来构建协方差函数,以绕过预先指定它的需求。但是,这样的模型在几种方面受到限制:它们仅限于单维输入,例如时间;它们仅允许对单个输出进行建模,并且由于推理并不简单,因此不会扩展到大型数据集。在本文中,我们引入了GPS的非参数过程卷积公式,该公式通过使用基于Matheron规则的功能采样方法来减轻这些弱点,以使用诱导变量的间域间采样进行快速采样。此外,我们提出了这些非参数卷积的组成,可作为经典深度GP模型的替代方案,并允许从数据中推断中间层的协方差函数。我们测试了单个输出GP,多个输出GPS和DEEP GPS在基准测试上的模型性能,并发现在许多情况下,我们的方法可以提供比标准GP模型的改进。
translated by 谷歌翻译
我们介绍了多功能的掌握质量卷积神经网络(VGQ-CNN),这是一个用于6-DOF GRASP的掌握质量预测网络。 VGQ-CNN在评估从各种相机姿势或移动机器人中看到的对象进行评估时可以使用VGQ-CNN,而无需重新训练网络。通过明确定义GRASP方向作为网络的输入,VGQ-CNN可以评估6-DOF抓取姿势,超越了大多数基于图像的GRASP评估方法(如GQ-CNN)中使用的4-DOF grasps。为了训练VGQ-CNN,我们生成了新的Versatile Grasp数据集(VG-DSET),其中包含从各种相机姿势中观察到的6-DOF GRASP。 VGQ-CNN在我们的测试分段中达到82.1%的平衡精度,同时将其推广到各种相机姿势。同时,与GQ-CNN的76.6%相比,它以74.2%的均衡精度达到了竞争性能,并以74.2%的均衡性能达到竞争性能。我们还提出了一个修改的网络体系结构快速VGQ-CNN,该网络体系结构使用共享的编码器体系结构加快推理,并可以在CPU上进行128个掌握质量预测。代码和数据可在https://aucoroboticsmu.github.io/vgq-cnn/上获得。
translated by 谷歌翻译
它是由Thom和Palm所说的,稀疏连接的神经网络(SCNS)显示出完全连接的网络(FCN)的改进性能。超常规网络(SRNS)是由一组堆叠稀疏层组成的神经网络(epsilon,delta) - 常规对和随机置换的节点顺序组成。使用爆破引理,我们证明,由于每对层的各个超规律性,SRNS保证了许多属性,使它们为许多任务提供适用于FCN的替代品。这些保证包括所有大足够大的子集,最小节点内和OUT度,输入 - 输出灵敏度以及嵌入预培训构造的能力的边缘均匀性。实际上,SRNS具有像FCN一样行动的能力,并消除对耗时的昂贵正则化方案的需求。我们表明SRNS通过易于可重复的实验表现出与X-NET相似,并提供更大的保证和对网络结构的控制。
translated by 谷歌翻译
我们最近开始一个项目,为来自背景知识的后推推,以促进深入自然语言理解的制定更有效和有效的方式。单词的含义被认为是它增加了持续情况的实体,预测,预设和潜在推论。随着单词组成,情况下的最小模型演变为限制和直接推理。此时我们开发了我们的计算架构并在真实文本上实现了它。我们的重点是证明了我们设计的可行性。
translated by 谷歌翻译
虽然现代政策优化方法可以从感官数据进行复杂的操作,但他们对延长时间的地平线和多个子目标的问题挣扎。另一方面,任务和运动计划(夯实)方法规模缩放到长视野,但它们是计算昂贵的并且需要精确跟踪世界状态。我们提出了一种借鉴两种方法的方法:我们训练一项政策来模仿夯实求解器的输出。这产生了一种前馈策略,可以从感官数据完成多步任务。首先,我们构建一个异步分布式夯实求解器,可以快速产生足够的监督数据以进行模仿学习。然后,我们提出了一种分层策略架构,让我们使用部分训练的控制策略来加速夯实求解器。在具有7-自由度的机器人操纵任务中,部分训练有素的策略将规划所需的时间减少到2.6倍。在这些任务中,我们可以学习一个解决方案4对象拣选任务88%的策略从对象姿态观测和解决机器人9目标基准79%从RGB图像的时间(取平均值)跨越9个不同的任务)。
translated by 谷歌翻译